强化学习
强化学习
实质是make decisions问题,即自动进行决策,并且可以做连续决策。
与监督学习的区别
| 对比项 | 监督学习 | 强化学习 |
|---|---|---|
| 学习信号 | 给定输入对应的标准答案(标签) | 通过奖励/惩罚信号(reward)评估行为好坏 |
| 反馈时机 | 通常即时、每个样本都有标签 | 可能延迟,需要多步之后才知道某一步决策的价值 |
| 数据分布 | 样本通常假设独立同分布 | 交互产生数据:行为会改变后续状态与数据分布 |
典型场景
- 机器人控制、博弈、推荐/广告的策略优化、自动驾驶中的决策
实质是make decisions问题,即自动进行决策,并且可以做连续决策。
| 对比项 | 监督学习 | 强化学习 |
|---|---|---|
| 学习信号 | 给定输入对应的标准答案(标签) | 通过奖励/惩罚信号(reward)评估行为好坏 |
| 反馈时机 | 通常即时、每个样本都有标签 | 可能延迟,需要多步之后才知道某一步决策的价值 |
| 数据分布 | 样本通常假设独立同分布 | 交互产生数据:行为会改变后续状态与数据分布 |